100 research outputs found

    Le choix d'une bonne mesure de qualité, condition du succès d'un processus de fouille de données

    No full text
    International audienceNotre réflexion se situe dans le domaine de l'apprentissage supervisé ou non supervisé par induction de règles. La fouille de données est couronnée de succès lorsque l'on parvient à extraire des données des connaissances nouvelles, valides, exploitables, etc. (Fayyad et al. (1996) Kodratoff et al. (2001)). L'une des clefs du succès est, bien sûr, le choix d'un algorithme qui soit bien adapté aux caractéristiques des données et au type de connaissances souhaitées : par exemple les règles d'association en non supervisé ; les arbres de décision, les règles d'association de classe et le bayésien naïf, en supervisé. Cependant, le succès dépend d'autres facteurs, notamment la préparation des données (représentation des données, outliers, variables redondantes) et le choix d'une bonne mesure d'évaluation de la qualité des connaissances extraites, tant dans le déroulement de l'algorithme que dans l'évaluation finale des résultats obtenus. C'est de ce dernier facteur que nous allons parler.En introduction, nous évoquerons rapidement le problème de la représentation des données. Puis, après avoir rappelé le principe de la recherche des règles d'association (Agrawal et Srikant (1994)) ou des règles d'association de classe intéressantes (Liu et al. (1998)), nous montrerons, à partir de quelques exemples, la diversité des résultats obtenus suivant la mesure d'intérêt choisie, que ce soit en comparant les pré-ordres obtenus ou en calculant les meilleures règles (Vaillant et al., 2004). Ces exemples illustrent le fait qu'il n'y a pas de mesure qui soit intrinsèquement bonne, mais différentes mesures qui, suivant leurs propriétés, sont plus ou moins bien adaptées au but poursuivi par l'utilisateur. Une mesure favorise tel ou tel type de connaissance, ce qui constitue un biais d'apprentissage que nous illustrerons par la mesure de Jaccard (Plasse et al. (2007)). Nous proposerons ensuite une synthèse des travaux concernant les mesures de qualité des règles d'association en présentant les principaux critères d'évaluation des mesures et en montrant concrètement le rôle de chacun de ces critères dans le comportement des mesures (e.g. Lenca et al. (2003), Tan et al. (2004), Geng et Hamilton (2006), Lenca et al. (2008), Suzuki (2008), Guillaume et al. (2010), Lerman et Guillaume (2010), Gras et Couturier (2010) ; nous renvoyons également le lecteur aux ouvrages édités par Guillet et Hamilton (2007) et Zhao et al. (2009)). Nous illustrerons le lien qui existe entre les propriétés des mesures sur les critères retenus et leur comportement sur un certain nombre de bases de règles (Vaillant et al., 2004). A côté de ces critères qui permettent d'étalonner les propriétés des mesures, nous présenterons d'autres critères de choix très importants. En premier lieu, nous nous intéresserons aux propriétés algorithmiques des mesures afin de pouvoir extraire les motifs intéressants en travaillant directement sur la mesure considérée, sans fixer de seuil de support, ce qui permet d'accéder aux pépites de connaissances (Wang et al. (2001), Xiong et al. (2003), Li (2006), Le Bras et al. (2009), Le Bras et al. (2009), Le Bras et al. (2010)). Nous exhiberons des conditions algébriques sur la formule d'une mesure qui assurent de pouvoir associer un critère d'élagage à la mesure considérée. Nous nous poserons ensuite le problème de l'évaluation de la robustesse des règles suivant la mesure utilisée (Azé et Kodratoff (2002), Cadot (2005), Gras et al. (2007), Le Bras et al. (2010)). Enfin, nous traiterons le cas des données déséquilibrées (Weiss et Provost (2003)) en apprentissage par arbres (Chawla (2003)) et nous montrerons comment le choix d'une mesure appropriée permet d'apporter une solution algorithmique à ce problème qui améliore de façon significative à la fois le taux d'erreur global, la précision et le rappel (Zighed et al. (2007), Lenca et al. (2008)). Si l'on veut privilégier la classe minoritaire, cette solution peut être encore améliorée en introduisant, dans la procédure d'affectation des étiquettes opérant sur chaque feuille de l'arbre, une mesure d'intérêt adéquate qui se substitue à la règle majoritaire (Ritschard et al. (2007), Pham et al. (2008)). Une discussion sur les mesures de qualité de bases de règles est présentée dans (Holena, 2009). En définitive, comment aider l'utilisateur à choisir la mesure la plus appropriée à son projet ? Nous proposerons une procédure d'assistance au choix de l'utilisateur qui permet de retourner à celui-ci les mesures les plus appropriées, une fois qu'il a défini les propriétés qu'il attend d'une mesure (Lenca et al. (2008))

    A New Clustering Algorithm Based on Regions of Influence with Self-Detection of the Best Number of Clusters

    No full text
    6 pagesInternational audienceClustering methods usually require to know the best number of clusters, or another parameter, e.g. a threshold, which is not ever easy to provide. This paper proposes a new graph-based clustering method called ``GBC'' which detects automatically the best number of clusters, without requiring any other parameter. In this method based on regions of influence, a graph is constructed and the edges of the graph having the higher values are cut according to a hierarchical divisive procedure. An index is calculated from the size average of the cut edges which self-detects the more appropriate number of clusters. The results of GBC for 3 quality indices (Dunn, Silhouette and Davies-Bouldin) are compared with those of K-Means, Ward's hierarchical clustering method and DBSCAN on 8 benchmarks. The experiments show the good performance of GBC in the case of well separated clusters, even if the data are unbalanced, non-convex or with presence of outliers, whatever the shape of the clusters

    Statistical inference and data mining: false discoveries control

    Get PDF
    Data Mining is characterised by its ability at processing large amounts of data. Among those are the data ”features”- variables or association rules that can be derived from them. Selecting the most interesting features is a classical data mining problem. That selection requires a large number of tests from which arise a number of false discoveries. An original non parametric control method is proposed in this paper. A new criterion, UAFWER, defined as the risk of exceeding a pre-set number of false discoveries, is controlled by BS FD, a bootstrap based algorithm that can be used on one- or two-sided problems. The usefulness of the procedure is illustrated by the selection of differentially interesting association rules on genetic data

    A statistical approach for separability of classes

    No full text
    11 pagesInternational audienceWe propose a new statistical approach for characterizing the class separability degree in R^{p}. This approach is based on a non-parametric statistic called the cut edge weight. We show in this paper the principle and the experimental applications of this statistic. First, we build a geometrical connected graph like Toussaint's Relative Neighbourhood Graph on all examples of the learning set. Second, we cut all edges between two examples of a different class. Third, we compute the relative weight of these cut edges. If the relative weight of the cut edges is in the expected range of a random distribution of the labels on all the neighbourhood of the graph's vertices, then no neighbourhood-based method provides a reliable prediction model. We will say then that the classes to predict are non-separable

    Quasi-Random resamplings, with applications to rule-samplng, cross-validation and (su-)bagging

    Get PDF
    Resampling (typically, but not necessarily, bootstrapping) is a well-known stochastic technique for improving estimates in particular for small samples. It is known very efficient in many cases. Its drawback is that resampling leads to a compromise computational cost / stability through the number of resamplings. The computational cost is due to the study of multiple randomly drawn resam- ples. Intuitively, we want some more properly distributed resamples to improve the stability of resampling-based algorithms. Quasi-random numbers are a well- known technique for improving the convergence rate of data-based estimates. We here consider quasi-random version of resamplings. We apply this technique to BSFD, a data-mining algorithm for simultaneous-hypothesis-testing, to cross- validation, and to (su-)bagging, an ensemble method for learning. We present quasi-random numbers in section 2. We present bootstrap and a quasi-random version of bootstrap-sampling in section 3. We present experimental results in section 4

    Un cadre formel pour l'étude des mesures d'intérêt des règles d'association

    No full text
    International audienceDepuis la définition du problème de l'extraction des règles d'association et la proposition de l'algorithme Apriori, beaucoup de travaux se sont focalisés sur l'extraction et l'évaluation des règles à partir de mesures objectives. Ces dernières sont essentiellement utilisées pour filtrer les règles extraites. Ces travaux ont donné lieu à quelques améliorations algorithmiques, un nombre important d'améliorations techniques et de très nombreuses nouvelles mesures.Cependant, peu d'entre eux se sont attaché à mêler extraction et évaluation. Nous introduisons ici un cadre formel d'étude des règles d'association et des mesures d'intérêt qui permet une étude analytique des ces objets. Ce cadre s'appuie sur la notion de table de contingence d'une règle et via la modélisation par une fonction de trois variable des mesures d'intérêt, permet une étude mathématique des mesures et de leurs propriétés algorithmiques. Nous détaillons le cas de trois de ces propriétés : la all-confidence, la Universal Existential Upward Closure, et la propriété d'élagage pour les règles optimales. Chacune des ces propriétés est dans un premier temps généralisée, puis nous proposons à partir du cadre formel des conditions d'existence nécessaire, suffisante, ou nécessaire et suffisante. Ces conditions sont alors appliquées à 42 mesures et permettent pour chaque mesure de proposer un ensemble de propriétés algorithmiques (et les algorithmes sous-jacents) qu'elles vérifient. L'impact de ces propriétés sera illustré à partir d'expérimentations sur différents jeux de données

    Indices de qualité en clustering

    No full text
    National audienceL'absence de vérité de terrain, entre autres, fait que l'évaluation d'un clustering est un problème non trivial pour lequel il est nécessaire d'utiliser des indices de qualité adaptés au but recherché et aux données. L'exposé présentera les éléments clés pour caractériser un indice de qualité, les principaux indices internes et externes et une approche axiomatique pour le choix d'un indice
    • …
    corecore